智能论文笔记

Graph Learning for Anomaly Analytics: Algorithms, Applications, and Challenges

Jing Ren , Feng Xia , Azadeh Noori Hoshyar , Charu C. Aggarwal

分类：机器学习

2022-12-11

Anomaly analytics is a popular and vital task in various research contexts, which has been studied for several decades. At the same time, deep learning has shown its capacity in solving many graph-based tasks like, node classification, link prediction, and graph classification. Recently, many studies are extending graph learning models for solving anomaly analytics problems, resulting in beneficial advances in graph-based anomaly analytics techniques. In this survey, we provide a comprehensive overview of graph learning methods for anomaly analytics tasks. We classify them into four categories based on their model architectures, namely graph convolutional network (GCN), graph attention network (GAT), graph autoencoder (GAE), and other graph learning models. The differences between these methods are also compared in a systematic manner. Furthermore, we outline several graph-based anomaly analytics applications across various domains in the real world. Finally, we discuss five potential future research directions in this rapidly growing field.

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Speeding Up Action Recognition Using Dynamic Accumulation of Residuals in Compressed Domain

Ali Abdari , Pouria Amirjan , Azadeh Mansouri

分类：计算机视觉

2022-09-29

随着安装摄像头的广泛使用，基于视频的监视方法已引起了针对不同目的（例如辅助生活）的广泛关注。时间冗余和原始视频的巨大大小是与视频处理算法有关的两个最常见的问题。大多数现有方法主要集中于通过探索连续帧来提高准确性，这是费力的，不能考虑实时应用程序。由于视频主要以压缩格式存储和传输，因此在许多设备上都可以使用这些视频。压缩视频包含许多有益信息，例如运动向量和量化系数。正确使用此可用信息可以大大改善视频理解方法的性能。本文提出了一种使用残差数据的方法，该方法直接在压缩视频中可用，可以通过部分解码过程获得。此外，提出了一种积累相似残差的方法，该方法大大减少了处理识别的处理帧数。仅应用神经网络，专门用于压缩域中的累积残留物，可以加速性能，而分类结果与原始视频方法具有很高的竞争力。

translated by 谷歌翻译

Geometric multimodal representation learning

Yasha Ektefaie , George Dasoulas , Ayush Noori , Maha Farhat , Marinka Zitnik

分类：机器学习 | 人工智能

2022-09-07

以图形为中心的人工智能（Graph AI）在建模自然界中普遍存在的相互作用系统（从生物学的动态系统到粒子物理学）方面取得了显着成功。数据的异质性的增加，需要对可以结合多种电感偏见的图形神经体系结构。但是，将来自各种来源的数据组合起来是具有挑战性的，因为适当的归纳偏差可能会因数据模式而异。多模式学习方法融合了多个数据模式，同时利用跨模式依赖性来应对这一挑战。在这里，我们调查了以图形为中心的AI的140项研究，并意识到，使用图越来越多地将各种数据类型汇集在一起，并将其馈入复杂的多模型模型。这些模型分为图像，语言和知识接地的多模式学习。我们提出了基于此分类的多模式图学习的算法蓝图。该蓝图是通过选择适当的四个不同组件来处理多模式数据的最先进架构的方法。这项工作可以为标准化精致的多模式体系结构的设计铺平道路，以解决高度复杂的现实世界问题。

translated by 谷歌翻译

Z-Index at CheckThat! Lab 2022: Check-Worthiness Identification on Tweet Text

Prerona Tarannum , Firoj Alam , Md. Arid Hasan , Sheak Rashed Haider Noori

分类：自然语言处理 | 机器学习

2022-07-15

社交媒体和数字技术的广泛使用促进了有关事件和活动的各种新闻和信息。尽管分享了积极的信息误导和虚假信息，但社交媒体也正在传播。在确定人类专家和自动工具手动的这种误导性信息方面，已经做出了努力。由于包含事实主张的大量信息正在网上出现，手动努力并不能很好地扩展。因此，自动确定值得支票的主张对于人类专家来说非常有用。在这项研究中，我们描述了我们参与子任务-1a：checkthat的推文（英语，荷兰语和西班牙语）的值得检查！在CLEF 2022的实验室。我们执行了标准的预处理步骤，并应用了不同的模型来确定给定文本是否值得事实检查。我们使用过度采样技术来平衡数据集和应用SVM和随机森林（RF）和TF-IDF表示。我们还将BERT多语言（BERT-M）和XLM-ROBERTA-BASE预培训模型用于实验。我们将BERT-M用于官方提交，我们的系统分别在西班牙语，荷兰语和英语中分别排名第三，第五和第十二。在进一步的实验中，我们的评估表明，变压器模型（Bert-M和XLM-Roberta-bas）在荷兰语和英语语言中优于SVM和RF，在荷兰语和英语中，对于西班牙来说，观察到不同的情况。

translated by 谷歌翻译

NeuraHealth: An Automated Screening Pipeline to Detect Undiagnosed Cognitive Impairment in Electronic Health Records with Deep Learning and Natural Language Processing

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理

2022-01-12

与痴呆症相关的认知障碍（CI）在全球范围内影响超过5500万人，并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败，早期诊断至关重要，但是在低水平和中等收入国家中，全球75％的痴呆症病例未被诊断为90％。众所周知，当前的诊断方法是复杂的，涉及对医学笔记，大量认知测试，昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录（EHR）中找到，并且可以为早期诊断提供重要线索，但是专家的手动审查是繁琐的，并且容易发生。该项目开发了一种新型的最新自动筛选管道，用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境，构建了一个8,656个序列的数据库，以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93％，AUC = 0.98，以识别其EHR中没有较早诊断，与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则，这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中，这是一种用于自动化和实时CI筛选的Web应用程序，只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜，更快，更容易获得，并且胜过当前的临床方法，包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行，但可访问的互联网或蜂窝服务。

translated by 谷歌翻译

PyChEst: a Python package for the consistent retrospective estimation of distributional changes in piece-wise stationary time series

Azadeh Khaleghi , Lukas Zierahn

分类： (统计)机器学习

2021-12-20

我们介绍了Pythest，一个Python包，它提供了同时估算了分布式静止时间序列的分布中多个转换点的工具。实现的非参数算法在一般框架中可被证明是一致的：当样本由未知的片断静止过程产生时。在该设置中，样本可以具有任意形式的远程依赖性，并且在变换点之前和之后的任何（未知）固定尺寸的有限尺寸边际的边缘依赖性可以是相同的。包装中包括的算法的强度在它们能够始终如一地检测变化，而不会强加在底层过程分布上的任何假设之外的任何假设。我们通过比较包装的性能与设计用于样本独立地和相同分布的设置的最先进模型来说明这种区别特征。

translated by 谷歌翻译

Zero-Shot Open-Book Question Answering

Sia Gholami , Mehdi Noori

分类：自然语言处理 | 机器学习

2021-11-22

开卷问答是问答任务在系统的目的是找到一个给定的文件（开卷）和一个话题常识答案的一个子集。本文提出了一种从亚马逊网络服务（AWS）技术文件没有特定的域标记数据（零次）的语料库回答自然语言问题的解决方案。这些问题可以是 - 否，没有答案，简答题，较长的答案，或任何以上的组合。该解决方案包括两个步骤的体系结构，其中一个检索找到正确的文件和一个提取器发现所检索文档中的答案。我们基于AWS技术文档客户实际问题为开卷QA引入一个新的测试数据集。基于采掘语言模型的几个信息检索系统和提取模型试验后，溶液试图找到在同通的是，没有没有答案和文字答案。该模型是在斯坦福大学的问题回答的培训数据集 - （Rajpurkaret人，2016）的阵容，自然问题的数据集（Kwiatkowski等，2019）。我们能够实现49％的F1和39％确切匹配的分数（EM）终端到终端的，没有特定领域的培训。

translated by 谷歌翻译

Using Deep Learning to Identify Patients with Cognitive Impairment in Electronic Health Records

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理 | 机器学习

2021-11-13

痴呆症是一种神经退行性疾病，导致认知下降，并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断，也可能无法作为患者图表中的疾病（ICD）诊断码的结构化国际分类。与认知障碍（CI）有关的信息通常在电子健康记录（EHR）中发现，但专家临床医生票据的手工审查既耗时，往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理（NLP）工具，以识别具有认知障碍的患者，并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型，可以从复杂的语言结构中学习，并且相对于基线NLP模型的精度（0.93）大大提高（0.84）。此外，我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。

translated by 谷歌翻译

A Deep Reinforcement Learning Approach for Composing Moving IoT Services

Azadeh Ghari Neiat , Athman Bouguettaya , Mohammed Bahutair

分类：机器学习

2021-11-06

我们开发了一种新颖的框架，以有效，有效地发现众群服务，在一段时间内靠近用户近距离移动。我们介绍了一种移动的众包服务模型，其被建模为移动区域。我们提出了一种深度加强基于学习的学习的组合方法来选择和撰写考虑质量参数的移动物联网服务。此外，我们开发了一个平行的基于群体的服务发现算法作为衡量所提出的方法的准确性。两个现实世界数据集的实验验证了基于深度加强学习的方法的有效性和效率。

translated by 谷歌翻译